終於來到了第 30 天,就以 NLP 中的重要模型 BERT 作結了!BERT 的實作其實非常多元,中文和英文的實作在網路上都有不少大神分享,內容也解釋得非常詳盡,故此篇就不多帶實作部分,而是推薦一些比較好上手的實作給大家!
首先推薦的是 Classify Text with BERT 這篇。因為這個教學包含對 BERT 進行微調(Fine-tuning)來對大家熟悉的!? IMDB 電影評論數据集進行情感分析(Sentiment Analysis)的完整程式碼。 除了訓練模型外,教學中也包含把文字預處理為合適的格式。整個流程包含 1) 使用 IMDB dataset,2) 從 TensorFlow Hub 下載BERT 模型,3) 通過將 BERT 與分類器結合,構建自己的模型,4) 訓練自己的模型,微調 BERT,5)保存模型並使用它對句子進行分類。大家跟著這篇的教學走完之後應該會很有成就感!不過這篇的語言是英文,但相信大家 codes 的部分一定看得懂的~
另外,這篇是在 colab 上面執行,較為方便且運行速度也很快,但若是要使用中文的 BERT 的話,就需要留意一下 Tensorflow 的版本,因為 colab 對中文版所開放的權限比較少。
中文的話則是推薦這篇讓初學者快速上手 超級簡單!使用bert來建一個文本分類器,雖然沒有什麼細部的解析,但能快速了解 BERT 運行的結構。
更多更進階且深入的 BERT 教學我建議大家可以去 Github 上面看看,有非常多的大神分享,和一堆很 fancy 的 projects,大家有興趣可以自己慢慢研究。
_____________________________________________________
30 天的鐵人賽終於完成了!這是我第一次參加鐵人賽,也很訝異(佩服 XD)自己真的撐過了這 30 天。這 30 天所需的工作量較之我參賽前所預想的真的高出太多太多了 >< 許多明明自以為了解的內容在必須訴諸文字表達時顯得如此蒼白空泛,必須自己一步一步從頭鑽研,再將自己重新且深入了解的內容轉換為大家能看得懂的文章。而當這樣的流程變成每天例行公事時,心理的壓力與身理的疲憊彷彿一瞬間都有了具體的形貌。但看著自己辛辛苦苦發的文章有人關注、有人閱覽,內心不由地感到開心與感激。感謝這 30 天來閱讀我的文章的大家,讓我再精進自己的路上有了人陪伴,也有了一點點的成就感。我自知自己撰寫 AI 技術類文章的文字非常青澀,也不像理工科那麼「理工、數學」的探討問題,但希望藉由「語言學」為切入點的 30 篇文章,能讓大家更了解何為語言學、語言學於科技之應用,不再只是聽到「語言」二字,就聯想到「文學」。同時,也期望這些文章能讓有興趣此領域的大眾有所啟發。
再次感謝耐心看到這裡的大家,我們有緣再見了~~